from pyspark import SparkContext, SparkConf

# 1、创建环境
sc = SparkContext()
# 2、读取数据, 使用HDFS路径
student_rdd = sc.textFile("/data/students")
clazz_kv_rdd = student_rdd.map(lambda x: (x.split(",")[-1], 1))
# 统计班级人数
clazz_num = clazz_kv_rdd.reduceByKey(lambda a, b: a + b)
# 整理结果数据
result = clazz_num.map(lambda kv: f"{kv[0]}\t{kv[1]}")
# 保存结果, 使用HDFS路径
result.saveAsTextFile("/data/clazz_num")